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Введение 


Арифметическое кодирование является одним из наиболее извест- 
ных методов, применяемых для сжатия текстов. Математической мо- 
делью множества текстов является множество последовательностей, со- 
стоящих из букв некоторого алфавита, с заданной на этом множестве 
вероятностной мерой, т.е. с заданными вероятностями букв в различ- 
ных контекстах. Кодированием называется инъективное преобразова- 
ние текстов в двоичные последовательности. Основными критериями 
эффективности метода кодирования являются степень сжатия текста, 
объем памяти, который требуется для программной реализации метода, 
и трудоемкость кодирования и декодирования. Арифметическое коди- 
рование является одним из методов, наилучшим образом сочетающих 
высокую степень сжатия текста с простотой операций кодирования и 
декодирования. 

Идея арифметического кодирования, которая будет изложена ниже, 
была высказана П. Элайесом. В 1976 году Й. Риссанен предложил пер- 
вый эффективный метод вычисления арифметического кода (см. [6,7]. 
В дальнейшем возникло несколько методов, реализующих идею ариф- 
метического кодирования. Один из них, предложенный в работе [8], 
подробно описан в настоящей статье. Изложение подобного алгоритма 
на русском языке, а также оценки его трудоемкости можно найти в 
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статье Б.Я. Рябко и А.Н. Фионова [5]. 


1. Основные определения 


Пусть А = {а1,...а«} — конечный алфавит. Бесконечные в обе 
стороны последовательности букв алфавита А образуют пространство 
элементарных событий А. Говорят, что задан некоторый источник 
сообщений 5 в алфавите А, если определены вероятности всех событий 
вида {2 Є А : 2; =а;,.... 1, = а;,}, где і — целые числа и а;, Є 
А. Другими словами, источник сообщений определен, если известна 
вероятность того, что сообщение х Є 4? содержит в і-й позиции букву 
ах, В 12-й позиции — а;, и т.д. Источник называется стационарным, 
если вероятности событий не зависят от сдвига последовательности, т. 
е. 


Ртг, —@ал,.... 5 = ау, } — Рети = 43...50, = а}, }. 


для всех целых #. Для стационарных источников можно определить 
вероятность слова а;,,...,а;, равенством р(а;,,...,9;,) = Рт{т.+1 = 
ај, ..., ера = аз, }, где & — произвольное целое число. Стационарный 
источник называется источником без памяти или источником Бернул- 
ли, если вероятность произвольной буквы а Є А не зависит от соседних 
букв, т.е. р(аз,....а;,) = р(а3,)...р(а;,). 

Энтропией стационарного источника 5 называется величина 


Н(9) = а 2 У ие) ювр(2) () 


поо П 
ТЕА" 


(здесь и далее ю5 = 109). Известно (см., например, [1,2,3,4]), что 
энтропия произвольного стационарного источника определена и удовле- 
творяет неравенствам 0 < Н(5) < |085, где & — мощность алфавита. 
Для энтропии источника без памяти 5 справедлива формула Шеннона 


К 


Н(5) = – У р(а;) 1о5р(а). 


1=1 


Обозначим через А* = 1%, 4" множество конечных слов в алфавите 
А. Кодированием называется инъективное отображение / : А* > {0, 1}*. 
Двоичное слово }(х) называется кодом слова 2 Є А*. Через | (2)| будем 
обозначать длину кодового слова. Префиксным будем называть коди- 
рование, обладающее следующим свойством: для произвольных слов 
фу Е А” слово Ј(х) является началом (префиксом) слова /(у) только 
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тогда, когда слово х является началом слова у. Декодирование (вычисле- 
ние функции 71) префиксного кода значительно упрощается, посколь- 
ку по началу кодового слова }(2) можно определить начало закодиро- 
ванного слова 2. 

Стоимостью С (}, 5) кодирования } источника 5 называется среднее 
число битов, которое нужно затратить для кодирования одной буквы 
исходного сообщения, т.е. 


С(7,5) = мәр У) ре (2) 


поо СА" 


Избыточностью кодирования ў слова х Е А” называется величина 


1 
(Г, =) = |Р) - 05 ——. 3 
(ла) = Ив (9) 
Средней избыточностью В($, 5) кодирования (на букву исходного сооб- 
щения) назвается разность между стоимостью кодирования (см. (2)) и 
энтропией источника (см. (1)), т.е. 


ВЈ.) = С 5) - Н(8) = ар У река). 0) 


поо СА" 


Известная теорема Шеннона (см., например, [1,2,3,4]) утверждает, 
что 

1. Для произвольного кодирования } и произвольного стационарного 
источника 5 средняя избыточность кодирования неотрицательна, т.е. 
(1,5) > 0. 

2. Для произвольного стационарного источника 5 и числа = > 0 най- 
дется префиксное кодирование јо такое, что А(ф, 5) < =. 

Таким образом, энтропия источника является точной нижней гра- 
нью стоимости кодирования или числа двоичных символов, которое 
нужно в среднем затратить на кодирование одной буквы сообщения. 


2. Описание метода кодирования 


Одним из наиболее эффективных методов построения для данно- 
го стационарного источника префиксного кодирования со сколь угодно 
малой избыточностью является арифметическое кодирование. Основ- 
ная идея арифметического кодирования состоит в следующем наблюде- 
нии. Все наборы из п букв алфавита А упорядочим лексикографически, 
т.е. ана; ...@, < 4383 ...аз,, если 18 = ДЖ при & «(ин < Л. 
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Для каждого слова х Е А” определим величины Г(5) = У) р(у) и 


(г) = Ца) + о). 

Разделим полуинтервал [0, 1) на полуинтервалы [Г(2), В(=)). В ка- 
ждом полуинтервале длины Г, Г < 1 найдется двоично-рациональное 
число со знаменателем не большим, чем 21- 198/1, поскольку разность 
между любыми двумя ближайшими числами с таким знаменателем не 
превосходит Г (2-Г- ов П < 21981 = Г). Каждому слову 2 Е А” поставим 
в соответствие двоично-рациональное число (х=) є [Г(=), К(х)) со зна- 
менателем, не большим 21- !°82(=)1, В качестве кода (=) рассмотрим 
двоичную запись числителя числа (+), которая имеет длину, равную 
[- ю#р(=)] (если число двоичных символов в записи числителя меньше, 
то нужно дописать слева недостающие нули), т.е. 


(=) | = [- ю82(#) |. (5) 


Поскольку полуинтервалы [2(2), В(=)), соответствующие различным сло- 
вам х одинаковой длины, не пересекаются, то все числа 4(5), 2 є А” 
попарно различны, т.е. отображение } : А" — Е* инъективно. Если 
для всех 2 Е А" и а; Є А справедиво неравенство р(а; |2) < 1/2, то при 
добавлении каждой следующей буквы интервал уменьшается не менее 
чем в два раза. Тогда |/(ка;)| > |7(=)| и отображение } : А* — Е* ока- 
зывается инъективным. Из формул (3)-(5) следует, что избыточность 
кодирования ў произвольного слова х Е А* не превосходит единицы и 
средняя избыточность кодирования источника равняется нулю. 

Однако в таком виде арифметическое кодирование не может при- 
меняться на практике, поскольку требуемая точность арифметических 
вычислений экспоненциально растет с увеличением длины кодируемо- 
го слова. Действительно, при увеличении длины слова на одну букву, 
число различных слов данной длины возрастает в # раз, а значит со- 
ответствующий слову полуинтервал уменьшается в среднем в # раз. 
Тогда для кодирования слова на единицу большей длины нужно в & раз 
точнее определять границы соответствующего полуинтервала. Ниже 
будет описан наиболее известный вариант арифметического кодирова- 
ния, который использует арифметические вычисления с фиксированной 
точностью. Для упрощения описания метода положим, что 5 — источ- 
ник Бернулли и р(а;) < 1/4 для всех 1 <1< А. Длина > 0 дво- 
ичной записи чисел, с которыми в процессе кодирования выполняются 
арифметические операции, является параметром кодирования и должна 
удовлетворять неравенству р(а;) > 1/2'-? для всех а; Е А. 

Определим величины о = 0, о; = 9;_1 + р(а;_1). Разделим полуин- 
тервал [0, 1) на полуинтервалы #(а;) = [1(а;), "(а;)), где Каз) = [0:2 | /2 
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ит(а;) = [0;+12° |/2°. Каждой букве а; Є А соответствует 1-й полуинтер- 
вал, длина которого приблизительно равна р(а;). Пусть 2 = а;,0;,...9; 
Поскольку р(а;) < 1/4, возможны три случая: 
1) (аз, ) со, 1/2); 
2) (аз, ) с 1/2, 1); 
3) Кан) С [1/4,3/4). 

Пусть (0) — полуинтервал, соответствующий слову 2 Е А”. Тогда 
в первом случае имеем Г(=) С #(а;,) С [0, 1/2) и первым символом после 
запятой всех чисел 4 Е Г(5) является 0. Поэтому 0 — первый символ 
кода /(5). Во втором случае первым символом кода }(1) является 1. В 
третьем случае первый символ пока неизвестен. 

Проведем операцию изменения масштаба (растяжения) полуинтер- 
вала. В первом случае новый полуинтервал — [2 (аз), 27(0;,)). 


п. 


Ца, ) (а) 


Во втором случае — [21(а;,) — 1, 2(а;,) – 1). 


Каз.) т(а;,) 


В третьем случае — [21(а;,) — 1/2, 27(а;,) — 1/2). 


Ца.) т(а:) 
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В каждом случае новый полуинтервал длиннее полуинтервала (а; ) 
в два раза. Будем продолжать процедуру изменения масштаба до тех 
пор, пока растянутый полуинтервал укладывается целиком в правую, 
левую или среднюю половину полуинтервала [0, 1). При растяжении 
левой половины полуинтервала [0,1) будем приписывать 0 в качестве 
следующего символа кода (к), при растяжении правой половины [0, 1) 
будем приписывать 1. Если перед растяжением левой (правой) полови- 
ны [0, 1) текущий полуинтервал оказывался ћ раз в средней половине, то 
после нуля (единицы) нужно приписать й единиц (нулей), т.е. в целом 
нужно приписать к коду слово 01...1(10...0). 

В итоге получим полуинтервал [1/2',т/2'), где Ги г — целые, 0 < 
<< 2 ит- 1р 22. Из [ИУ 7/2) выделим полуинтервал, со- 
ответствующий второй букве слова 2: 4(а;,9;,) = [Ца а), "(ан а,)), 
где Ка, аз,) = (1+ (г — По, |) /2* и (аа) = (1+ Це — Дол, Ј)/2*. 
Проделаем с полуинтервалом +(а;, а;,) те же операции изменения мас- 
штаба, что и с полуинтервалом #(а;.). В результате получим начало 
кода /(х), соответствующее двум начальным буквам. Выполнив такую 
же процедуру для букв а;,, а;,,...0;,, получим код }(2). Заметим, что 
при вычисления кода /(2) мы использовали арифметические операции 
с числами, по модулю не превосходящими 2', причем для кодирования 
каждой очередной буквы достаточно конечного числа арифметических 
операций. 

Из процедуры арифметического кодирования непосредственно выте- 
кает следующее утверждение. 


Утверждение 1. Полуинтервалы, соответствующие словам одина- 
ковой длины, не пересекаются. Соответствующий слову х полуинтер- 
вал целиком содержится в полуинтервале, соответствующем каждому 
началу слова к. 


В том случае, когда условие тахр(а;) < 1/4 не выполняется, опе- 
рация изменения масштаба не обязательно следует за добавлением оче- 
редной буквы. Очередные буквы необходимо добавлять, пока соответ- 
ствующий полуинтервал не будет целиком укладываться в правую, ле- 
вую или среднюю половину полуинтервала [0, 1). Если вероятности 
букв зависят от предыстории, то при кодировании буквы а;, слова х = 
а; 0; ...а;, вместо чисел с; следует использовать числа сі, 1< 3 <, 
определенные равенствами с! = 0, с! = с! + р(а-1 ал а... аа). 

Рассмотрим пример арифметического кодирования ({ = 4) слова 
адазаз, порожденного источником Бернулли в алфавите А = {а1, аз, аз, 
ал, а5} и вероятностями появления букв р(а1) = р(аз) = 1/4, р(а2) = 
р(а4) = р(аѕ) = 1/6. 
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Получаем равенства: 


(ад) — 16.2/3| _ 10 "(а ) = 16.5/6 — 13 








в Иа ЕА 
(адау) = у 20] — = 0, (ада) и 1= т, 


1(адазаз) = ‘2.5/6 5/6 = 0 (адаа) = = рц = 12 


16) 
Процесс построения арифметического кода изображен на рис. 1. По- 


лучаем №(адатаѕ) = 1010101. 

Декодирование арифметического кода осуществляется следующим 
образом. Сначала нужно определить первую букву закодированного сло- 
ва. Затем нужно удалить начальные символы кода, соответствующие 
первой букве, и определить вторую букву закодированного слова И т.д. 
Например, определим первую букву слова, имеющего код 1010101. Так 
как первым символом кодового слова является 1, то первой буквой за- 
кодированного слова является аз, ал или аѕ. Вторым символом кодового 
слова является 0, поэтому первой буквой закодированного слова явля- 
ется аз или ад. Так как следующим символом кодового слова является 
1, мы заключаем, что первой буквой закодированного слова является 
буква ад. Процесс декодирования изображен на рис. 2. 

После повторения процедуры кодирования буквы ад (см. пример 
выше) разделим полученный полуинтервал на части, соответствующие 
буквам ај, а, аз, ад, ау, и определим вторую букву закодированного 
слова аналогичным образом. 


н: 
[е0 
= 
[е0 


3. Избыточность арифметического кодирования 


Запишем формально рекуррентные формулы, определяющие проце- 
дуру арифметического кодирования источника Бернулли. Пусть х — 
некоторое слово в алфавите А. Обозначим через ха; слово, полученное 
из 2 добавлением буквы а;. Пусть 4(=) — количество изменений мас- 
штаба при кодировании слова 2; Г(2) и (2) — левая и правая границы 
полуинтервала, соответствующего слову х в первоначальном масштабе. 
Тогда арифметическое кодирование определяется следующими форму- 
лами: В(0) = 1, 2(0) = 0, 4(0) =0, 


Ца) = Ка) — Ца), (6) 

(ва) = (оные) р [о ()2097+ ), (7) 
1/4 < [(#)24®) < 1, (8) 

ва) 29 9) = Ге) 29 р | о; 1()294®)+1 |. (9) 


В качестве кода слова = можно взять двоичную запись В1т4(+)+2 (М), 
состоящую из 4(2) + 2 символов, произвольного целого числа 


№Е [1(#)242)+2, В(+)24®)+2). 
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1(адазаз) "(адатау) 





(аа) = Ш] — 16 (адај) = Не =0 











Т6 = 1(адазаз) = 25/6) = 10 
(а) = 65/6] _ 13 (адал) = р2/4] — з. "(адазаѕ) = 2 — 12 
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а1 аз а5 





Для определенности выберем число І(а)2%%+2, т.е. 
Ра) = Віна ((к)249 +2). (10) 


Утверждение 2. Пусть А = 1а1,....ак}! — алфавит и при каж- 
дом ї, 1 < 1 < Е, выполнены неравенства 1/22 < р(а;) < 1/4. Тогда 
отображение }, определяемое формулами (6)-(10), является префикс- 
ным кодированием. 


ДОКАЗАТЕЛЬСТВО. Пусть а,б Е Е* и а — префикс слова 5. Тогда 
двоичные числа и и о, определенные равенствами Віщаи = аи Віцы? = 
Ь, удовлетворяют неравенствам 


ид < 02-10 < (и + 12. (11) 

Пусть 2 — произвольное слово в алфавите А. Из неравенства (8) 
следует, что 

Іа) +272 < (а) + Ца) = (а). (12) 


Докажем от противного, что отображение ] обладает свойством пре- 
фиксности. Пусть т, у Є А* — некоторые слова и слово / (к) — префикс 
слова }(у). Так как | (2)| = 4(2) + 2, то из (10)-(12) получаем 


а) < Цу) < (а) + 27900? < (а), 
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т.е. полуинтервалы [2 (х), В(=)) и [2(у), В(у)) пересекаются. Из утверж- 
дения 1 вытекает, что [Г(у), В(у)) с [Г(т), В(+)) и слово х является 
префиксом слова у (противоположное включение противоречит тому, 
что кодовое слово (2) — префикс кодового слова }(у)). Следовательно, 
отображение } обладает свойством префиксности. 

Докажем инъективность отображения }. Если (2) = Р(у), то 2 — 
префикс слова у (или наоборот). Так как тахр(а;) < 1/4, то справед- 
ливы неравенства Г(у) < Г(та;) < [Г(:)/4. Тогда из неравенства (8) 
следует, что 4(=) < а(у) и |1 (#)| < [1 (и)|. Таким образом, отображение 
Ў инъективно. 


Ограничение тах р(а;) < 1/4 в условии утверждения 2 можно снять, 
несколько усложнив кодирование конца сообщения. 


Теорема 1. Лусть 5 — такой источник Бернулли в алфавите А = 
Тал,..., ак}, что при любом 1, 1 < 1 < Е, выполнены неравенства 1/2'-3 < 
р(а;) < 1/4. Тогда для арифметического кодирования } с параметром 1 
справедливо неравенство 


тах 1/р(а;) 


В 5) < 2-3 ш2 


ДОКАЗАТЕЛЬСТВО. Пусть = = а; ...а;,. Введем обозначение х” = 


а. ...@»„ при т < п. Докажем методом индукции, что 


Ца") > [[фа,)- 27°). (13) 


Ј=1 
Из равенства (7) следует, что 


1 
Ца) = 5(199+12']— 16,2) > р(а,) – 1/2. 
Пусть неравенство (13) верно для т — 1 при т < п. Тогда из (7) и (8) 
получаем 


т т- 1 т- дт-1 
Ца") = Ца" а) = туг (108 По” ОН | 


т—1 1 
— т-—1\7. оа(х + о 
(2 )о,„2 1) > (т-1) (не) Пут) > 
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т.е. неравенство (13) доказано. Из (8) и (13) следует, что 


1> 2%) 


2 


(р(а:;) – 1/0277) 


ЕЛ 


откуда 


ЕЛ 


(а) < – У ов(р(а,) — И?) (м) 


Ј=1 
Используя неравенство 11(1 + #) < 2 при 2 > —1, получаем 


— Іов(р(а:,) — 1/2?) < – Іовр(а:,) + т 


Тогда из (14) и условия теоремы 1/2'-3 < р(а;) следует неравенство 


1 п тах 1/р(а;;) п тах 1/р(а;,) 
4(=) < (овое) В изро = 0822) + зру 


Из формул (1)-(4), (10) и предыдущего неравенства получаем оценку 
средней избыточности кодирования } источника 5 


В} 5) =С(5)-Н(5) = 


. 1 
іт зир — У р(2)(4(2) + 2 – 105 1/р(х)) < 
поо П ЕД» 
тах 1/р(а;) 
= 2312 


Теорема доказана. 


Из теоремы непосредственно вытекает, что выбирая достаточно боль- 
шой параметр +, можно получить кодирование со сколь угодно малой 
средней избыточностью кодирования №. Причем параметр +, равный 
длине двоичной записи чисел, с которыми в процессе кодирования нуж- 
но выполнять арифметические операции, растет только как 105 1/В + 
сопѕі при В - 0. 

Аналогичная теорема об избыточности арифметического кодирова- 
ния справедлива для широкого класса стационарных источников, как 
показано, например, в [5]. 
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